پالایش داده های پرت برای یافتن اطلاعات مفید در مجموعه داده های غیر گسترش یافته

پایان نامه
چکیده

کشف داده پرت مرحله مهمی در پیش پردازش داده ها است و نتایج داده کاوی وابسته به انجام صحیح آن می باشد. در کشف داده پرت، داده هایی که با سایر داده ها تفاوت زیادی دارند و رفتار داده های معمولی را نشان نمی دهند، شناسایی شده و حذف می گردند. مراحل بعدی داده کاوی تنها بر روی داده های معمولی انجام می شوند. چنانچه داده های پرت حذف نشوند و همراه با داده های معمولی پردازش شوند، ممکن است مدل نا صحیحی ایجاد کنند و مدل نهایی بیانگر رفتار معمول نمونه ها نباشد. حذف این داده ها در حالی صورت می-گیرد که در برخی موارد تعداد داده های پرت زیاد است یا این داده ها دارای ارزش و مفهوم خاصی هستند. در این تحقیق به بررسی استفاده از داده های پرت در چنین مواردی پرداخته خواهد شد تا مشخص شود که آیا پردازش جداگانه این داده ها می تواند سودمند باشد یا خیر. به این منظور روش های داده کاوی به طور جداگانه بر روی داده های معمولی و پرت اعمال می شوند تا مدل یا مدل هایی برای بیان رفتار هر گروه حاصل شود. برای ارزیابی نتایج از دقت استفاده می شود و دقت روش پیشنهادی، که پردازش جداگانه داده-های معمولی و پرت است با روش معمول که همان حذف داده های پرت است مقایسه می گردد. در این راستا از چهار مجموعه داده استاندارد که معمولاً در کشف داده پرت استفاده می شوند یعنی german credit، wdbc، pima indian diabetes و bcw یک مجموعه داده ساختگی بهره برده می شود. بر طبق پیاده سازی های انجام شده پردازش این داده ها حداقل به روشی که در این تحقیق مورد استفاده قرار گرفته است، به عنوان یک روش معمول، مناسب نیست.

منابع مشابه

طراحی مجموعه حداقل داده های مراقبت بهداشتی کودکان برای ایران

مقدمه: مجموعه حداقل داده اولین گام مهم در توسعه سیستم اطلاعات مراقبت بهداشتی است. زیرا روشی استاندارد برای جمع آوری عناصر داده ای کلیدی در پرونده ایجاد می کند. این پژوهش با هدف تعیین حداقل مجموعه داده ها برای پرونده بهداشتی کودکان برای ایران انجام شده است. مواد و روش ها: پژوهش حاضر از نوع کاربردی است و به روش توصیفی-تطبیقی در سال 1394 انجام شد. با استفاده از یک مطالعه تطبیقی مجموعـه داده های مر...

متن کامل

یافتن جواب بهینه مدل انتخاب تکنولوژی با داده های فازی

در این مقاله روشی برای یافتن جواب بهینه مدل انتخاب تکنولوژی با داده های فازی معرفی می شود. مقاله یک روش ساده محاسباتی برای یافتن جواب بهینه مساله برنامه ریزی خطی فازی مدل انتخاب تکنولوژی پیشنهاد می کند که درآن نیاز به حل هیچ LP فازی نیست. این تحقیق از پیچیدگی محاسبات داده های فازی می کاهد و زمانیکه پیچیدگی بیشتری مطرح می شود اهمیت این روش نیز افزایش می یابد.

متن کامل

شناسایی خطاهای داده های خام بویه های موج نگار با استفاده از روش ضریب داده پرت محلی

استخراج مشخصات دریا معمولاً از طریق بویه‌های موج نگار انجام می‌شود. اما ثبت داده توسط موج نگارها معمولاً با خطاهایی همراه است. لذا قبل از استخراج هرگونه اطلاعاتی لازم است این خطاها را شناخت و آنها را حذف و یا تصحیح کرد. هدف از این تحقیق، شناسایی خطاهای موجود در برداشت داده-های خام از بویه‌های موج نگار، با استفاده از روش ضریب داده پرت محلی (LOF) است. LOF روشی قدرتمند جهت شناسایی ناهنجاری داده‌ها د...

متن کامل

تحلیل استوار داده های فضایی در حضور داده های دورافتاده

معمولاً تابع تغییرنگار که ساختار همبستگی داده­های فضایی را تعیین می­کند و نقش پایه­ ای در تحلیل آن­ها دارد، نامعلوم است و لازم است براساس مشاهدات برآورد شود. وجود داده­ های دورافتاده در مشاهدات تاثیر نامناسبی در برآورد تغییرنگار و سایر بخش­های تحلیل داده­های فضایی همچون پیش­گویی فضایی و برآورد پارامترهای روند دارد. در این مقاله ابتدا با استفاده از برآوردگرهای مقیاس، چند برآوردگر استوار جدید با ن...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه صنعتی اصفهان - دانشکده برق و الکترونیک

کلمات کلیدی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023